Many datasets are biased, namely they contain easy-to-learn features that are highly correlated with the target class only in the dataset but not in the true underlying distribution of the data. For this reason, learning unbiased models from biased data has become a very relevant research topic in the last years. In this work, we tackle the problem of learning representations that are robust to biases. We first present a margin-based theoretical framework that allows us to clarify why recent contrastive losses (InfoNCE, SupCon, etc.) can fail when dealing with biased data. Based on that, we derive a novel formulation of the supervised contrastive loss (epsilon-SupInfoNCE), providing more accurate control of the minimal distance between positive and negative samples. Furthermore, thanks to our theoretical framework, we also propose FairKL, a new debiasing regularization loss, that works well even with extremely biased data. We validate the proposed losses on standard vision datasets including CIFAR10, CIFAR100, and ImageNet, and we assess the debiasing capability of FairKL with epsilon-SupInfoNCE, reaching state-of-the-art performance on a number of biased datasets, including real instances of biases in the wild.
translated by 谷歌翻译
CT灌注(CTP)是一项体检,用于测量对比度溶液通过像素逐像素的大脑通过大脑的通过。目的是为缺血性病变迅速绘制“灌注图”(即脑血体积,脑血流量和峰值的时间),并能够区分核心和甲瘤区域。在缺血性中风的背景下,精确而快速的诊断可以确定脑组织的命运,并在紧急情况下指导干预和治疗。在这项工作中,我们介绍了UnitObrain数据集,这是CTP的第一个开源数据集。它包括一百多名患者的队列,并伴随着患者元数据和最新算法获得的地面真相图。我们还建议使用欧洲图书馆ECVL和EDDL进行图像处理和开发深度学习模型,提出了一种基于神经网络的新型算法。神经网络模型获得的结果与地面真相相匹配,并为所需数量的CT地图的潜在子采样开辟了道路,这对患者施加了重辐射剂量。
translated by 谷歌翻译
深度学习优化的最新进展表明,借助有关训练有素的模型的一些A-posteriori信息,可以通过简单地训练其参数的一部分来匹配相同的性能。这种发现从理论到应用都有广泛的影响,将研究推向方法,以识别无需查看信息开发而训练的最小参数子集。但是,提出的方法与最新性能不符,并依赖于非结构化的稀疏连接模型。在这项工作中,我们将重点从单个参数转移到整个神经元的行为,从而利用了神经元平衡的概念(NEQ)。当神经元处于平衡状态(意味着它已经学会了特定的输入关系)时,我们可以停止其更新;相反,当神经元处于非平衡状态时,我们使其状态朝着平衡状态进化,从而更新其参数。提出的方法已在不同的最新学习策略和任务上进行了测试,验证了NEQ并观察到神经元平衡取决于特定的学习设置。
translated by 谷歌翻译
如今,深入学习模型已广泛部署,以解决各种各样的任务。但是,很少关注关联的法律方面。 2016年,欧盟批准了2018年生效的一般数据保护法规。其主要理由是通过经营所谓的“数据经济”的方式来保护其公民的隐私和数据保护。由于数据是现代人工智能的燃料,因此认为GDPR可以部分适用于一系列算法的决策制定任务,然后更具结构化的AI法规生效。同时,AI不应允许不希望的信息泄漏与创建的目的偏离。在这项工作中,我们提出了DISP,这是一种深入学习模型的方法,该方法删除了与AI处理的数据相关的某些私人类别相关的信息。特别是,分配是一种正规化策略,在培训时间删除了属于同一私人班级的功能,从而隐藏了私人课程会员资格的信息。我们对最先进的深度学习模型的实验显示了分配的有效性,最大程度地降低了我们希望保持私人的班级的提取风险。
translated by 谷歌翻译
深度学习优化的最新进展表明,仅仅一部分参数才能成功训练模型。潜在地,这种发现从理论到应用都有广泛的影响。但是,众所周知,找到这些可训练的子网络通常是一个昂贵的过程。这抑制了实际应用:在培训时可以找到深度学习模型中学习的子图形结构吗?在这项工作中,我们探讨了这种可能性,观察和激励为什么普通方法通常在感兴趣的极端情况下失败,并提出一种方法,该方法有可能通过减少的计算工作来培训。关于具有挑战性的体系结构和数据集的实验表明,在这种计算增益上具有算法可访问性,尤其是实现的准确性和部署的培训复杂性之间的权衡。
translated by 谷歌翻译
在本文中,我们设计,分析收敛属性并解决截然的实现方面。这是一个新颖的异步公平自适应联合学习框架,用于溪流的物联网应用环境,其特征是随时间变化的操作条件,异质资源限制的设备(即同事),非I.I.I.D。本地培训数据和不可靠的通信链接。 AFFED的关键新事物是:(i)同事和中央服务器的两组适应性调谐的公差阈值和公平系数; (ii)分布式自适应机制,使每个同事都可以自适应地调整自己的沟通速度。一组新的分析界限(可能)正式公布了对所得的AFFAD收敛率(例如,第一和第一和,首先,首先和)对产生的AFFAD收敛率的影响,从(可能)正式公布了一组新的分析范围,例如(fl),第一和连续模型更新,数据偏度,通信数据包损失概率以及用于模型聚合的(自适应调谐)混合系数的最大/最小值的连续模型更新,数据偏度,通信数据包损失概率以及最大/最小值的第二瞬间。
translated by 谷歌翻译
传统文本分类方法通常需要良好数量的标记数据,这很难获得,尤其是限制域或较少的广泛语言。这种缺乏标记的数据导致了低资源方法的兴起,这在自然语言处理中具有低数据可用性。其中,零射击学习脱颖而出,它包括在没有任何先前标记的数据的情况下学习分类器。通过此方法报告的最佳结果使用变压器等语言模型,但下降到两个问题:高执行时间和无法处理长文本作为输入。本文提出了一种新的模型Zeroberto,它利用无监督的聚类步骤来获得分类任务之前的压缩数据表示。我们展示Zeroberto对长输入和更短的执行时间具有更好的性能,在FOLHauol数据集中的F1分数中表现出XLM-R大约12%。关键词:低资源NLP,未标记的数据,零射击学习,主题建模,变形金刚。
translated by 谷歌翻译
根据研究人员在歧视和校准性能方面采用的标准评估实践,这项工作旨在了解阶级不平衡对胸部X射线分类器的性能的影响。首先,我们进行了一项文献研究,分析了普通科学实践并确认:(1)即使在处理高度不平衡的数据集时,社区也倾向于使用由大多数阶级主导的指标; (2)包括包括胸部X射线分类器的校准研究仍然罕见,尽管其在医疗保健的背景下的重要性。其次,我们对两个主要胸部X射线数据集进行了系统实验,探讨了不同类别比率下的几种性能指标的行为,并显示了广泛采用的指标可以隐藏少数阶级中的性能。最后,我们提出了通过两个替代度量,精密召回曲线和平衡的Brier得分,这更好地反映了系统在这种情况下的性能。我们的研究结果表明,胸部X射线分类器研究界采用的当前评估实践可能无法反映真实临床情景中计算机辅助诊断系统的性能,并建议改善这种情况的替代方案。
translated by 谷歌翻译
现代深层神经网络在医学图像分割任务中取得了显着进展。然而,最近观察到他们倾向于产生过于自信的估计,即使在高度不确定性的情况下,导致校准差和不可靠的模型。在这项工作中,我们介绍了错误的预测(MEEP)的最大熵,分割网络的培训策略,这些网络选择性地惩罚过度自信预测,仅关注错误分类的像素。特别是,我们设计了一个正规化术语,鼓励出于错误的预测,增加了复杂场景中的网络不确定性。我们的方法对于神经结构不可知,不会提高模型复杂性,并且可以与多分割损耗功能耦合。我们在两个具有挑战性的医学图像分割任务中将拟议的策略基准:脑磁共振图像(MRI)中的白质超强度病变,心脏MRI中的心房分段。实验结果表明,具有标准分割损耗的耦合MEEP不仅可以改善模型校准,而且还导致分割质量。
translated by 谷歌翻译
受试者经常与若干参与者的中等辩论经常变化,例如议会会议,选举辩论和审判。将争论分组到具有相同主题的块是必不可少的理解。通常,主持人负责在新块开始时定义,以便自动划分审核辩论的任务可以完全关注主持人的行为。在本文中,我们(i)提出了一种新的算法,Debacer,其审议审查辩论;(ii)在常规和Bertimbau管道之间进行比较研究;(iii)验证将其申请到葡萄牙共和国大会的分钟。我们的结果显示了Debacer的有效性。关键词:自然语言处理,政治文件,口语文本处理,语音分裂,对话分区。
translated by 谷歌翻译